搜尋引擎
概念
它包括信息蒐集、信息整理和用戶查詢三部分。搜尋引擎是一個為你提供信息“檢索”服務的網站,它使用某些程式把網際網路上的所有信息歸類以幫助人們在茫茫網海中搜尋到所需要的信息,它包括信息蒐集、信息整理和用戶查詢三部分。目前常用的網路搜尋引擎有百度,Google,我愛讀,搜狐,雅虎,必應,好書搜尋,有道,中搜,搜搜,搜客等。
發展
隨著yahoo!的出現,搜尋引擎的發展也進入了黃金時代,相比以前其性能更加優越。現在的搜尋引擎已經不只是單純的搜尋網頁的信息了,它們已經變得更加綜合化,完美化了。以搜尋引擎權威yahoo!為例,從1995年3月由美籍華裔楊致遠等人創辦yahoo!開始,到現在,他們從一個單一的搜尋引擎發展到現在有電子商務、新聞信息服務、個人免費電子信箱服務等多種網路服務,充分說明了搜尋引擎的發展從單一到綜合的過程。
缺陷
然而由於搜尋引擎的工作方式和網際網路的快速發展,使其搜尋的結果讓人越來越不滿意。例如,搜尋“電腦”這個辭彙,就可能有數百萬頁的結果。這是由於搜尋引擎通過對網站的相關性來最佳化搜尋結果,這種相關性又是由關鍵字在網站的位置、網站的名稱、 標籤等公式來決定的。這就是使搜尋引擎搜尋結果多而雜的原因。而搜尋引擎中的資料庫因為網際網路的發展變化也必然包含了死連結。
發展
在百度、Google、雅虎等主流搜尋引擎愈發發展成熟以外,各類不同的搜尋大全也在今日的網際網路逐漸興起。搜尋大全即為集各種不同類型搜尋引擎,涵蓋多語言於一身的搜尋集合。該類搜尋引擎大全的興起,讓搜尋變得更加簡單。幾乎所有的內容都能在“一頁之間”完成。比如風靡一時的百google度,谷姐,比如新近出來的sou1sou等,就是將其它的搜尋引擎的結果集合在一塊。
原理
抓取網頁
每個獨立的搜尋引擎都有自己的網頁抓取程式(spider,即搜尋引擎蜘蛛)。Spider順著網頁中的超連結,連續地抓取網頁。由於網際網路中超連結的套用很普遍,理論上,從一定範圍的網頁出發,就能蒐集到絕大多數的網頁。
處理網頁
搜尋引擎抓到網頁後,還要做大量的預處理工作才能提供檢索服務。其中,最重要的就是提取關鍵字,建立索引檔案。其他還包括去除重複網頁、分析超連結、計算網頁的重要度等。
檢索服務
用戶輸入關鍵字進行檢索,搜尋引擎從索引資料庫中找到匹配該關鍵字的網頁;為了用戶便於判斷,除了網頁標題和URL外,還會提供一段來自網頁的摘要以及其他信息。
精確搜尋
如果你想在網際網路上本地區域尋找某一樣東西或資料,可以在google、baidu或其他搜尋器中輸入:某某產品名稱或資料名稱然後用逗號“,”再輸入所在地城市名稱,點擊搜尋,這樣很多關於某城市相關產品或資料就出現。例如:某某產品,城市名稱;或某某資料名稱,城市名稱。